anthropic研究

Anthropic 研究发现：仅需少量污染文档即可对 LLM 实施投毒

Anthropic 的 Alignment Science 团队发布最新研究，直指大语言模型训练过程的投毒攻击。实验涵盖了多种模型规模和数据集，发现仅需在预训练数据中加入 250 条恶意样本，就足以植入一个“后门”漏洞。Anthropic 得出的结论是，随着模